边缘 AI / 边缘 AI 推理(Edge AI / Edge AI Inference)
定义
边缘 AI 推理是把训练好的 AI 模型(LLM / 视觉 / 语音 / 推荐)部署到 ↑ up::CDN 边缘节点或运营商 MEC 节点上,让推理请求就近响应而不必回传到中心化 GPU 集群。核心收益:
- 延迟从 300-1,000ms 降至 30-100ms — 实时对话/语音/视频 AI 体验可用
- 节省回源带宽 — 大量"短小高频"请求不必跨大洲传输
- 数据主权 — 用户数据可不出本地区
- 首字时延(TTFT)大幅改善 — LLM Streaming 用户体验关键指标
2026 年被业内定义为"边缘智能全面爆发年",CDN 节点全面升级为 AI 推理节点。
关键产品
海外
| 厂商 | 产品 | 特色 |
|---|---|---|
| Cloudflare | Workers AI + AI Gateway | Serverless 边缘 GPU / 多模型路由 |
| Akamai | AI 推理云(41 DC + NVIDIA B200) | 2026 CIS +45-50% 增长 |
| Fastly | 语义缓存 + 高算力边缘编排 | 首年盈利 $1,970 万 |
| NVIDIA | NIM / Triton on Edge | 模型容器化 |
中国
| 厂商 | 产品 | 特色 |
|---|---|---|
| 网宿科技 | Moltbot 边缘 AI 平台 | 2,800+ 全球节点 |
| 云工场科技 | 灵境云 边缘智算 | "十公里低时延算力服务圈" |
| 阿里云 | 边缘节点服务(ENS) | 国内最广 |
与中心 AI 的差异
| 维度 | 中心化 AI(云端) | 边缘 AI |
|---|---|---|
| 模型规模 | 100B-2T 参数(如 GPT-4 / Claude) | 1B-70B 蒸馏 / 量化模型 |
| 单次推理时延 | 300-1,500ms | 30-100ms |
| 带宽消耗 | 高 | 低 |
| 单次成本 | 高 | 低(高 QPS 摊薄) |
| 适用场景 | 复杂 reasoning / 长上下文 | 实时对话 / RAG / 短任务 |
关键技术
- 模型压缩 — INT4/INT8 量化、剪枝、蒸馏(→ 4-04-模型部署与优化)
- 语义缓存(Fastly 核心技术) — 把语义相似的 prompt 命中已有结果,降低 GPU 调用
- 混合架构 — 云训练-边缘推理,训练在中心、推理在边缘
- Serverless GPU 编排 — 按请求计费的 GPU 算力
行业趋势
- CDN 厂商全面 AI 化 — Cloudflare/Akamai/Fastly 三家 AI 营收占比 2024 普遍 <5% → 2027E 预期 15-25%
- AI Gateway 成新入口 — AI Gateway 解决"多模型/多供应商"统一访问层
- 75% 数据在边缘(IDC 2025E)— 推理就近成大势所趋
- 混合云架构标配 — 大模型公司(如 OpenAI / Anthropic)也开始 CDN 边缘部署
关联
↑ up::2-01-核心逻辑芯片 CDN ↓ down::第五层应用(自动驾驶 / AR-VR / 实时翻译 / 工业视觉) ∈ belongs_to::3-04-边缘节点-网络分发基础设施